Statistik och dataanalys I

F4: Jämföra fördelningar, tidsserier, och transformationer.

Valentin Zulj

Vad har vi gjort hittills

Hittills har vi pratat om

  • Fördelningar för kategoriska variabler (t.ex. stapeldiagram)
  • Fördelningar för numeriska variabler (t.ex. histogram)
  • Hur vi illustrera/presenterar samband mellan kategoriska variabler (t.ex. korstabeller)

Vad vi ska göra idag

  • Samband mellan en kategorisk och en numerisk variabel
    • Betinga numeriska variabler på kategoriska
    • Lådagram
    • Samband och slump
    • Spridningsdiagram
  • Tidsserier
    • Säsongsvariation
    • Utjämning
  • Transformationer

Betinga numeriska variabler på kategoriska

Repetition

  • När vi intresserar oss för kategoriska variabler vill vi oftast veta hur stora olika grupper av observationer är
  • När vi intresserar oss för numeriska variabler kan vi vilja undersöka
    • centralmått som medelvärde och median
    • spridningsmått som, standardavvikelse och kvartilavstånd (se F2)

Numeriska variabler betingade på kategoriska

  • För att undersöka sambandet mellan en numerisk variabel och en kategorisk variabel kan vi studera fördelningen av den numeriska variabeln betingat på den kategoriska variabeln
  • Med två kategoriska variabler kan vi ställa frågor som:
    • Är andelen BMW-förare som kör för fort större än motsvarande för Toyota-förare?
  • Med en numerisk och en kategorisk variabel kan vi ställa frågor som:
    • Hur snabbt kör BMW-förare i genomsnitt på en viss vägsträcka?
    • Som jämförelse, hur snabbt kör Toyota-förare i genomsnitt på samma vägsträcka?
  • Vi undersöker alltså hastigheten (numerisk variabel) betingat på bilmärket (kategorisk variabel)

Varför betinga på detta sätt?

  • Figur 4 i De Veaux et al. (2021) visar medelvindhastigheter i västra Massachusetts (dagliga observationer under 2011)
  • För hälften observationerna är vindhastigheten mindre än 1.12 mph, och fördelningen är skev till höger

Varför betinga på detta sätt?

  • Fråga: Är den här fördelningen representativ för alla delar av året?
  • Detta kan vi inte avgöra utifrån histogrammet ovan

Illustration av betingad fördelning

  • Figur 4.2 i De Veaux et al. (2021) visar medelvindhastigheten separat för två säsonger: vår/sommar och höst/vinter

  • Jämfört med fördelningen för hela året kan vi se att

    • Det blåser mindre under vår/sommar
    • Det är fler dagar med mycket vind under höst/vinter

Illustration av betingad fördelning

  • Är vi intresserade av vindstyrkan under en viss tid på året ger de betingade fördelningarna en bättre bild än marginalfördelningen
  • Från föreläsning 3: Marginalfördelningen är den fördelning av en variabel som inte tar hänsyn till andra variabler (t.ex årstid)

Varför betinga numeriska variabler på kategoriska?

  • Vi får en bättre bild av vindstyrkan om vi betingar variabeln på årstid
  • Vi kan få en ännu bättre bild av vindstyrkan om vi bryter ned observationerna i 12 månadsgrupper istället för bara två säsonger
  • Men hur ska vi illustrera de tolv månaderna? Tolv separata histogram blir svåröverskådligt
  • Som ett alternativ till histogram kan vi använda låddiagram (en: boxplot)

Låddiagram

  • Den övre bilden till vänster föreställer ett låddiagram. Låddiagrammet visar fördelningen av dagar med olika vindstyrka i västra Massaschussets.
  • Låddiagrammet llustrerar samma data som som det blå histogrammet, men på ett mer sammanfattande sätt.

Låddiagram

  • Medan histogrammet ger en mer komplett bild av fördelningen visar låddiagrammet ett antal nyckelmått:
    • Medianen
    • \(Q_1\)
    • \(Q_3\)
    • Kvartilavståndet
    • Värdet av den största och den minsta observationen

Låddiagram - hur det är uppbyggt

  • Figuren består av en låda (box), morrhår (whiskers) och en punkt
  • Undre kanten av lådan mäter \(\mathbf{Q_1}\)
  • Övre kanten av lådan mäter \(\mathbf{Q_3}\)
  • Linjen som går genom lådan mäter medianen \(\mathbf{(Q_1)}\)
  • Lådans höjd mäter kvartilavståndet (IQR)
  • Morrhåren sträcker sig till det minsta respektive största värdet som ligger innanför de röda stödlinjerna

Låddiagram - hur det är uppbyggt

  • De röda stödlinjerna är inte en del av diagrammet. De är placerade vid \(Q1 - 1.5 \cdot IQR\) respektive \(Q3 + 1.5 \cdot IQR\)
  • Observationer som ligger utanför stödlinjerna räknas som outliers och ritas ut som punkter
  • I detta låddiagram har vi en sådan punkt under den nedre röda linjen
  • Vi har inga outliers i den över delen av diagrammet.
  • Diagrammet kan också vara liggande

Låddiagram - tolkning

Vi använder det vi vet om låddiagram för att utläsa information om vindstyrkan i västra Massaschussets:

  • Värdet för Q1 är lite över 0 mph
  • värdet för Q2 omkring 1 mph
  • värdet för Q3 lite över 2 mph
  • Det lägsta värdet är omkring 0 mph
  • Det högsta vädet ligger en bit över 6 mph

Låddiagram - tolkning

Vi använder det vi vet om låddiagram för att utläsa information om vindstyrkan i västra Massaschussets:

  • Medianen ligger närmare Q1 än Q3 och det övre morrhåret är längre än det undre
    • Detta talar för att fördelningen är skev åt höger
  • Det finns ett antal höga outliers, men inga låga outliers
  • Obs: Att observationer identfieras som outliers behöver inte betyda att de ska tas bort, men vi bör vara medvetna om dem

Jämföra fördelningar med låddiagram

  • Lådagram gör det enklare att jämföra flera olika fördelningar
  • Figur 4.3 i De Veaux et al. (2021) visar vindstyrkorna betingade på månad
  • Mönster: det blåser mindre under sommaren, med mindre variation
  • Stjärnan över juni är en extrem outlier, som representerar en tornado

Numeriska betingade fördelningar - samband och slump

  • På föreläsning 3 tog vi upp frågan om skillnader mellan grupper i ett datamaterial

  • Vi diskuterade hur vi kan bedöma om skillnaderna beror på slumpen eller på att det finns ett mer generellt samband

  • Som exempel använde vi Titanics livbåtar, och tittade på hur livbåtsplatser fördelades mellan passagerare i olika klasser

  • Till slut ställde vi upp hypotesen att livbåtsplatserna var slumpmässigt fördelade och oberoende av biljetklass, och expreimenterade lite

  • Vi upprepade ett experiment där vi lät platserna i livbåtarna fördela sig slumpvis mellan alla passagerare, som om vår hypotes var sann

Numeriska betingade fördelningar - samband och slump

  • För varje upprepning gjorde vi ett pajdiagram, och jämförde dessa diagram med den verkliga fördelningen
  • Den verkliga fördelningen ser inte slumpmässig ut, och vi lutar så åt att det finns ett samband

Numeriska betingade fördelningar - samband och slump

  • Vi vill nu göra något liknande, men denna gång vill vi undersöka om skillnaden mellan två numeriska fördelningar beror på slumpen eller inte

  • Vi antar att vi mäter hastigheten för bilar som kör längs en given gata, och fokuserar särskilt på BMW och Toyota

  • Vi kan sedan illustrera de två hastighetsfördelningarna (en för BMW och en för Toyota) med två låddiagram

Numeriska betingade fördelningar - samband och slump

  • Medelhastigheten hos de bilar som kör BMW är 2.53 mph högre än medelhastigheten hos de som kör Toyota.
  • Betyder det att BMW-förare generellt kör snabbare än Toyota-förare, eller beror skillnaden i medelhastighet på slumpen?

Numeriska betingade fördelningar - samband och slump

  • Vi vill veta om skillnaden i medehastighet beror på på att de som kör det ena bilmärket generellt kör snabbare, eller skillnaden beror på slumpen
  • Vi kan ställa upp hypotesen att hastigheten är oberoende av bilmärke
  • Om hypotesen är sann var det enbart slumpen som gjorde så att BMW-förarna körde snabbare i just de fall vi mätte upp

Numeriska betingade fördelningar - samband och slump

  • Vi gör ett tankeexperiment: Anta att vi inte känner till vilket bilmärke som är kopplat till vilken hastighet i vår data

  • Istället för att dela upp bilarna efter märke, delar vi slumpmässigt in dem slumpvis i två grupper som vi kallar A och B

  • Eftersom indelningen är slumpmässig, kommer hastigheten nu att vara oberoende av vilken grupp bilarna hamnar i

  • Efter att varje bil, som har en viss hastighet, slumpvis har placerats i en grupp räknar vi ut medelhastigheten för vardera grupp

  • Vi noterar skillnaden i medelhastighet mellan de två grupperna (Medelvärdet för grupp A minus medelväldet för grupp B).

Numeriska betingade fördelningar - samband och slump

  • Nu upprepar vi detta slumpexperiment ett stort antal

  • Figur 4.5 i De Veaux et al. (2021) visar utfallet av 10,000 sådana experiment

  • Skillnaden som uppmättes i studien (2.53 mph) är markerad med en triangel

  • Vilka slutsatser kan vi dra?

Numeriska betingade fördelningar - samband och slump

  • Triangeln ligger långt till höger om vad som rimligtvis skulle kunna förväntas om skillnaden bara berodde på slumpen

  • Skillnaden är mycket större än vad som vore rimligt om slumpen styrde

  • Vi lutar alltså åt att BMW-förare faktiskt kör snabbare

Spridningsdiagram (scatter plot)

  • Vi har hittills tittat på diagram som på olika sätt sammanfattar numeriska värden, så som histogram och låddiagram

  • Ibland vill vi ha en bild som visar varje observation. Det kan vi åstadkomma med ett spridningsdiagram (en: scatter plot)

  • Figur 4.6 i De Veaux et al. (2021) visar medelvindstyrkan för varje dag 2011

Tidsserier

Data som sträcker sig över tid

  • Spridningsdiagrammet från tidigare är intressant av annan anledning

  • y-axeln ser vi medelvindstyrkan förr en given dag

  • x-axeln ser vi hur många dagar in på året vi är

  • Observationerna är alltså ordnade i tidsordning från vänster till höger, och därmed illustrerar diagrammet en tidsserie

Tidsserieplot

  • Vi binder gärna samman punkterna för att lättare urskilja mönster
  • Vanligtvis är vi intresserade av att titta efter
    • Trender
    • Säsongsvariation
  • Trender och säsongsvariationer kan vara viktiga om du vill göra prognoser

Trender

  • En trend är en kontinuerlig förändring som sker över tid
  • Grafen nedan visar Sveriges bruttonationalprodukt från 1960 till 2020
  • Även om BNP sjunker vissa år är trenden positiv – om vi drog en rak linje från 1960 till 2020 skulle linjen peka kraftigt uppåt

Säsongsvariation

  • säsongsvariation är ett mönster som upprepar sig över tydligt avgränsade tidsperioder (vanligtvis år)

  • Säsongsvariation syns ofta i exempelvis tidsserier över väder och försäljning (i regel högre temperaturer på sommaren och lägre på vintern, etc)

  • Bilden ned visar temperaturer insamlade mellan 1 februari 2008 och 1 maj 2022 vid tre svenska flygplatser (Bild från Villani et al. (2022))

Utjämning (smoothing)

  • Spridningsdiagrammen till vänster och i mitten är båda kaotiska
  • Det högra diagrammet visar en utjämnad kurva som tydliggör tidsseriens övergripande rörelse
  • En av de enklaste metoderna för utjämning är att använda ett glidande medelvärde (moving average)
  • För en given tidpunkt beräknar vi ett (viktat) medelvärde av de punkter som ligger närmast i tid

Transformationer

Varför transformera?

  • Vi motiverar transformation av variabler med hjälp av en forskningsstudie

  • Studien undersöker om exponering för rökning påverkade nivån av kotinin i blodet (nedbrytningsprodukt av nikotin)

  • Deltagarna i studien delades in i tre grupper:

    • Rökare (Smoker)
    • Passiva rökare (ETS, exposed to smoke)
    • De som inte utsattes för någon rök (No ETS)
  • Vi har alltså en kategorisk variabel (grupptillhörighet) och en numerisk variabel (mängd kotonin i blodet, nanogram/ml)

Transformationer

  • I figuren finns tre låddiagram, där varje diagram visar fördelningen av kotonin-nivå i respektive grupp
  • Ser vi några problem med diagrammet?

Transformationer

  • När värden är ojämnt fördelade kan det svara svårt att läsa ett diagram – i detta fall är en stor del värdena ihopklämda i botten av diagrammet

  • Det är omöjligt att se skillnaden mellan passiva rökare (ETS) och de som inte exponerats för rök (No ETS)

Transformationer

  • Med hjälp av en transformation kan vi göra diagrammen mer lättläsliga, i detta fall kan vi transformera y-axeln från kotinin till log(kotinin)

  • Vi ser nu tydligt att de som exponerats för rök har högre halter av kotinin
  • Men: nu har vi log(kotinin) på y-axeln, och inte mängden kotinin

Logaritmer

  • Följande samband är bra att känna till för att kunna översätta mellan logaritmer och vår ursprungliga skala:

\[ y = e^x \Longleftrightarrow \log(y) = x \]

  • Vi kan också skriva

\[ y = e^{log(y)} \] - Uttrycket \(e\) är en konstant med ett värde som är ungefär 2.7.

  • Exempel: Antag att vi vet att \(\log(a) = 1.2\), och att vi vill hitta värdet på \(a\)
  • Vi vet då att \(a = e^{\log(a)}\), vilket innebär att

\[a = e^{\log(a)} = e^{1.2} = 3.32\]

Transformationer i R

  • Vi skapar en variabel som vi kallar \(y\), med värden som skiljer sig kraftigt i storleksordning, och försöker illustrera \(y\) med ett låddiagram
y <- c(0.2, 0.3, 2, 3,  5, 700, 14000) #Skapa en vektor
bwplot(y) # Gör en boxplot av y med mosaic-paketet
  • Resultatet blir ett låddiagram som är svårt att läsa, då nästan alla observationer är ihoptryckta i diagrammets vänstra del

Transformationer i R

  • Vi skapar nu variabeln \(\log y\), som är logaritmen av \(y\), och skriver ut den nya variabelns värden avrundade till 3 decimaler
logy <- log(y)
print(round(logy, 3)) # Skriv ut den logaritmerade vektorn, 
[1] -1.609 -1.204  0.693  1.099  1.609  6.551  9.547
  • Trots att våra ursprungliga värden varierar stort, från 0.2 till 14 000, håller sig våra logaritmerade värden inom ett intervall från ungefär -1.6 till 9.5

Transformationer i R

  • Vi sammanfattar våra värden i \(\text{logy}\) med ett låddiagram
bwplot(logy) # Gör en boxplot av y med mosaic-paketet
  • Resultatet blir ett låddiagram som är mer lättläst

Transformationer i R

  • Vi kan transformera tillbaka våra värden till orginalskalan med formeln \[ y = e^{\log{(y)}}, \; \text{ där } \; e \approx 2.718 \]
y_backtransformed <- exp(logy) # Transformera tillbaka
y_backtransformed # Skriv ut y
[1]     0.2     0.3     2.0     3.0     5.0   700.0 14000.0
  • Vi ser att de värden som transformerats tillbaka är våra ursprungliga värden

  • Notera att \(e^x\) i R skrivs exp(x)

Transformationer

  • Logaritmering är användbart i otroligt många statistiska tillämpningar

  • Men det är bara en av många transformationer som vi kan ha nytta av

  • När vi kommer till avsnittet om regression kommer transformering att spela en större roll

  • Om du tycker att transformationer verkar jobbigt, oroa dig inte!

  • På den här kursen kommer transformationer inte handla om matematik, utan mer om att pröva sig fram

Credits

Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj